#alineación direccional

Alineación Direccional Mitiga el Hackeo de Recompensas en el Aprendizaje por Refuerzo para Modelos de Lenguaje

La alineación direccional evita el hackeo de recompensas en RL para modelos de lenguaje. Técnica clave para entrenar LLMs seguros y efectivos.